一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择。本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。1.一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;其中,步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法,包括如下步骤:1)对于用户每个月的上网时间,将时间序列两两做差值,得出上网时间每天的变化信息图;2)算出该差值序列的绝对值均值,用该值作为阈值,将时间差值细分为上网时间“显著”增加、“显著”减少、“不显著”增加、“不显著”减少以及上网时间不变的分组;3)对这些分组进行统计,得出直方图特征;4)将若干月的直方图拼在一起,作为该用户的上网时间趋势特征;步骤(3)中的Group Lasso方法的λ值,使用5*10-5,5*10-4,5*10-3,0.05,0.1,0.5和0.9这七组值并且使用Logistic Regression方法进行交叉验证。